년 1월 AI 및 로봇 연구 동향

년 1월 AI 및 로봇 연구 동향

1. 서론: 2024년의 서막을 연 AI와 로보틱스: 두 가지 핵심 패러다임의 부상

2024년 1월은 인공지능(AI) 및 로봇 공학 분야에서 두 가지 거대한 흐름이 명확해진 시점으로 기록된다. 첫째, Google DeepMind를 필두로 물리적 세계와 상호작용하는 지능, 즉 ’Embodied AI’에 대한 연구가 전례 없는 속도로 가속화되었다. 둘째, Meta AI가 주도한 ‘기반 모델의 전문화(Specialization)’ 경향이 코드 생성 분야에서 뚜렷하게 나타났다.1

이러한 움직임은 단순한 개별 기술의 등장을 넘어, 주요 AI 연구소들이 각자의 장기적인 비전과 기술 스택을 구체화하고 있음을 시사한다. Google은 ’현실 세계의 범용 에이전트’라는 궁극적 목표 아래, 로보틱스 데이터 수집(AutoRT), 모델 효율화(SARA-RT), 행동 일반화(RT-Trajectory), 그리고 인간 수준의 손재주(ALOHA, DemoStart)를 아우르는 완전한 파이프라인을 제시하며 물리적 세계로의 확장을 선언했다. 반면, Meta는 Llama 생태계를 중심으로 특정 전문 도메인(코딩)에 고도로 최적화된 초거대 개방형 모델(Code Llama 70B)을 공개함으로써, 개발자 커뮤니티의 지배력을 강화하고 디지털 세계에서의 영향력을 공고히 하려는 전략을 명확히 했다. 이는 ‘범용성’ 대 ‘전문화’, ‘폐쇄형 생태계’ 대 ’개방형 생태계’라는 거대 담론이 실제 기술 로드맵으로 구체화되며 본격적인 경쟁 구도에 돌입했음을 보여준다.

본 보고서는 이 두 가지 핵심 패러다임을 축으로 2024년 1월의 주요 연구 성과를 분석한다. 산업계의 대규모 시스템 발표가 어떻게 학계의 이론적 탐구와 상호작용하며 기술적 진보를 이끌어냈는지 심층적으로 조망하고, 그 근간을 이루는 핵심 기술의 수학적 원리까지 탐구하여 2024년 전체 연구 지형도를 예측하는 것을 목표로 한다.

2. 산업계 주요 연구 동향 및 발표: Embodied AI와 전문 LLM의 약진

2.1 Google DeepMind의 로보틱스 연구 가속화: 현실 세계 상호작용의 새로운 지평

2024년 1월, Google DeepMind는 로봇이 현실 세계를 이해하고, 더 빠르고 효율적으로 학습하며, 인간과 유사한 정교한 작업을 수행할 수 있도록 하는 일련의 연구 결과를 발표하며 Embodied AI 분야의 리더십을 공고히 했다. 이는 데이터 수집부터 모델 최적화, 행동 일반화, 손재주 구현에 이르는 로보틱스 연구의 전 과정을 포괄하는 체계적인 접근법을 보여준다.

2.1.1 로보틱스 파운데이션 스택: AutoRT, SARA-RT, RT-Trajectory

Google DeepMind가 제시한 세 가지 핵심 기술은 로보틱스 분야의 근본적인 난제들을 해결하기 위한 통합된 솔루션 스택을 구성한다.

  • AutoRT (Autonomous Robotic Data Collection): 로보틱스 분야의 고질적인 ‘데이터 기근’ 문제를 해결하기 위한 시스템이다. 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)을 활용하여 로봇이 스스로 주변 환경을 인식하고, “카운터 위에 간식을 올려놓으시오“와 같이 창의적인 작업을 제안하며, 이를 수행함으로써 대규모 학습 데이터를 자율적으로 수집한다.2 7개월간 다양한 오피스 빌딩에서 최대 52대의 로봇을 동시에 조율하여 6,650개의 고유 작업에 걸쳐 77,000건의 로봇 시도 데이터를 수집하는 데 성공했다. 이는 데이터 수집의 패러다임을 인간의 수동적 시연에서 로봇의 능동적 탐험으로 전환하는 중요한 성과다.2
  • SARA-RT (Self-Adaptive Robotics Transformer): 대규모 AI 모델을 실제 로봇의 제한된 컴퓨팅 자원에 효율적으로 배포하기 위한 핵심 기술이다. 기존 Robotics Transformer(RT) 모델의 어텐션 모듈은 입력 시퀀스 길이에 따라 계산량이 제곱으로 증가하는 이차 복잡도(O(N^2)) 문제를 안고 있었다. SARA-RT는 ’업-트레이닝(up-training)’이라는 새로운 미세조정 기법을 통해 이 어텐션 모듈을 선형 복잡도(O(N))로 변환한다.2 그 결과, 기존 RT-2 모델 대비 정확도는 10.6% 향상시키면서도 의사결정 속도는 14% 더 빠르게 만드는 데 성공했다. 이는 성능 저하 없이 모델을 경량화하여 실용성을 극대화한 중요한 진보다.2
  • RT-Trajectory: 로봇의 행동 일반화(generalization) 능력을 획기적으로 개선한 기술이다. 기존 모델은 “테이블을 닦으라“는 추상적인 지시를 특정 움직임으로 연결하는 데 어려움을 겪었다. RT-Trajectory는 훈련 데이터로 사용되는 비디오에 로봇 팔 그리퍼의 2D 궤적을 시각적으로 겹쳐 보여줌으로써, 모델이 ‘어떻게’ 작업을 수행하는지를 직관적으로 학습하도록 돕는다.2 이 방식을 통해 이전에 한 번도 본 적 없는 41개의 새로운 작업에 대한 성공률을 기존 RT-2 모델의 29%에서 63%로 2배 이상 끌어올렸다.2

2.1.2 인간 수준의 손재주(Dexterity)를 향한 도전: ALOHA Unleashed & DemoStart

Google DeepMind는 로보틱스의 오랜 난제인 정교한 조작 능력, 즉 손재주를 구현하기 위한 두 가지 상호 보완적인 연구를 함께 발표했다.

  • ALOHA Unleashed: 모방 학습(Imitation Learning)의 한계를 데이터의 양과 모델의 표현력으로 돌파할 수 있음을 실증적으로 보여준 사례다. 저비용 양팔 로봇 플랫폼인 ALOHA 2를 사용하여, 35명의 조작자가 8개월에 걸쳐 26,000건이 넘는 대규모 원격 조종 데이터를 수집했다.1 이 방대한 데이터를 표현력이 뛰어난 Diffusion Policy 기반의 트랜스포머 모델로 학습시켜, 신발 끈 묶기, 셔츠를 옷걸이에 걸기, 다른 로봇의 부품 교체하기 등 이전에는 자율 수행이 불가능했던 고도의 정교한 양손 조작 작업을 성공적으로 구현했다.1
  • DemoStart: 강화학습(Reinforcement Learning)을 통해 효율적으로 손재주를 학습하는 새로운 접근법을 제시한다. 이 방법은 단 몇 개의 불완전한 시뮬레이션 시연(demonstration)과 작업 성공 여부만을 알려주는 희소 보상(sparse reward)만으로 복잡한 다지(multi-fingered) 로봇 손의 조작을 학습한다.1 핵심은 시연 데이터를 기반으로 자동 커리큘럼을 생성하는 것이다. 처음에는 성공 직전의 쉬운 상태에서 학습을 시작하고, 점차 성공에서 먼 어려운 상태로 난이도를 높여나간다.1 이 접근법을 통해 시뮬레이션 환경에서 너트 조이기, 플러그 꽂기 등 다양한 작업에서 98% 이상의 성공률을 달성했으며, 이를 실제 로봇으로 성공적으로 전이(Sim-to-Real)시켰다. 이는 실제 로봇으로 학습 데이터를 수집하는 데 필요한 시간과 비용을 100배 이상 줄일 수 있는 잠재력을 보여준다.1

이러한 연구들은 Google이 Embodied AI를 향한 체계적인 기술 포트폴리오를 구축하고 있음을 명확히 보여준다. AutoRT로 데이터를 대규모로 수집하고, RT-Trajectory로 가공하여 일반화 성능을 높인 후, SARA-RT로 모델을 경량화하여 실제 로봇에 탑재하고, 최종적으로 ALOHA나 DemoStart 같은 방법론으로 복잡한 작업을 학습시키는 ’End-to-End 로보틱스 스택’의 청사진을 제시한 것이다.

기술명핵심 문제 해결주요 방법론정량적 성과 (1월 발표 기준)출처
AutoRT데이터 수집 (Scale)VLM/LLM 기반 자율 데이터 수집7개월간 52대 로봇, 77,000개 시도 데이터 수집2
SARA-RT모델 효율성 (Speed)업-트레이닝을 통한 선형 어텐션 변환RT-2 대비 정확도 10.6%↑, 속도 14%↑2
RT-Trajectory행동 일반화 (Generalization)2D 궤적 오버레이를 통한 시각적 학습미경험 작업 성공률 29% → 63% (2배↑)2
ALOHA Unleashed양손 손재주 (Dexterity)대규모 모방 학습 + Diffusion Policy신발 끈 묶기, 셔츠 걸기 등 복잡한 양손 작업 성공1
DemoStart다지(多指) 손재주 (Dexterity)시연 기반 자동 커리큘럼 강화학습시뮬레이션 내 98% 이상 성공, Sim-to-Real 전이1

2.2 Meta AI의 코드 생성 모델 고도화: 개발자 생산성의 재정의

Meta AI는 1월 29일, Llama 2 아키텍처를 기반으로 한 700억 파라미터 규모의 개방형 코드 생성 LLM인 ’Code Llama 70B’를 발표했다.3 이는 단순히 모델의 크기를 키운 것을 넘어, 특정 전문 분야(코딩)에서 상용 모델에 필적하거나 이를 능가하는 성능을 목표로 하는 ‘전문화’ 전략의 중요한 이정표다. 이 모델은 1조 개의 코드 및 코드 관련 데이터 토큰으로 학습되었으며, 특히 Python 특화 버전은 1000억 개 이상의 Python 토큰으로 추가 미세조정되어 높은 전문성을 확보했다.7

Code Llama 70B의 성능은 주요 코딩 벤치마크에서 입증되었다. 코드 완성 능력을 평가하는 HumanEval 벤치마크에서 65.2%의 pass@1 점수를 기록했는데, 이는 이전 34B 모델의 51.8%를 크게 상회하며, 널리 사용되는 상용 모델인 GPT-3.5의 72.3%에 근접하는 수치다.8 이러한 결과는 오픈소스 모델이 특정 전문 영역에서 최첨단 상용 모델의 성능에 근접할 수 있음을 보여주며, 개발자들이 고가의 상용 API에 의존하지 않고도 강력한 코드 생성 AI를 활용할 수 있는 길을 열었다는 점에서 의미가 크다. 이는 개발자들이 Meta의 생태계 안에서 특정 솔루션을 구축하도록 유도하는 강력한 유인책으로 작용할 것이다.

모델명파라미터HumanEval (pass@1)MBPP (pass@1)비고출처
GPT-4-85.4%-비공개, 최상위 성능8
GPT-3.5 (ChatGPT)-72.3%52.2%널리 사용되는 상용 모델8
Code Llama 70B70B65.2%~65% (추정)1월 발표된 최상위 오픈소스 모델8
Code Llama 34B34B53.7%56.2%이전 세대 오픈소스 모델3
Llama 2 70B70B30.5%45.4%범용 오픈소스 모델9

2.3 OpenAI의 생태계 확장과 정책 변화: 상업화와 사회적 책임 사이

OpenAI는 1월, 기술 개발을 넘어 AI 생태계를 구축하고 사회적 영향력에 대한 정책적 입장을 재정립하는 두 가지 중요한 행보를 보였다.

첫째, ’GPT Store’를 공식 출시했다.10 이는 사용자가 특정 목적에 맞게 맞춤화된 GPT를 직접 제작하고, 이를 다른 사용자와 공유하며 수익까지 창출할 수 있는 플랫폼이다. 이 움직임은 OpenAI가 AI 기술을 ’제품’에서 ’플랫폼’으로 전환시키려는 명확한 전략을 보여준다. 애플의 앱스토어가 모바일 생태계를 폭발적으로 성장시킨 것처럼, GPT Store는 AI 애플리케이션의 개발과 유통을 민주화하여 새로운 혁신의 물결을 일으킬 잠재력을 가지고 있다.

둘째, 사용 정책에서 ‘군사 및 전쟁’ 목적의 사용을 금지하는 명시적 조항을 삭제했다.11 기존의 “자신이나 타인에게 해를 끼치는” 행위를 금지하는 일반 조항은 유지되었으나, 특정 분야를 명시한 문구를 제거한 것이다. 이 변화는 미 국방부(DoD)와 오픈소스 사이버 보안 기술을 개발하기 위한 파트너십과 관련이 있는 것으로 알려졌으며, AI 기술이 국방과 같은 민감한 분야에 활용될 가능성을 열어두었다는 점에서 중요한 정책적 전환으로 평가된다.11

OpenAI의 이 두 가지 발표는 상반된 방향성을 가지면서도 AI 기술의 사회적 통합 과정에서 발생하는 필연적인 딜레마를 드러낸다. GPT Store는 AI의 민주화와 창의적 활용을 촉진하는 긍정적 측면을 대표하는 반면, 군사적 사용 정책 변경은 AI의 잠재적 오남용과 위험성에 대한 사회적 우려를 증폭시킨다. 기술의 확산(democratization)은 필연적으로 통제(control)의 문제를 야기한다. 스토어를 통해 누구나 강력한 AI를 만들 수 있게 되면 그 AI의 사용처를 완전히 통제하기 어려워지며, 동시에 국가 안보와 직결된 군사 분야의 활용을 무조건 막는 것도 현실적으로 어렵다. 결국 1월의 OpenAI 동향은 AI 기술 리더들이 ’혁신과 확산’이라는 가속 페달과 ’안전과 통제’라는 브레이크를 동시에 밟아야 하는 복잡한 상황에 직면했음을 보여주며, 이는 향후 AI 거버넌스와 규제 논의의 핵심적인 딜레마가 될 것이다.

3. 학계 주요 연구 논문 심층 분석: 이론적 토대와 실증적 탐구

2024년 1월 학계에서는 산업계의 대규모 발표와 보조를 맞추며 LLM과 로보틱스의 융합을 이론적으로 정립하고, 동시에 로봇 공학의 근본적인 문제들을 해결하기 위한 깊이 있는 연구들이 발표되었다. arXiv에는 해당 월에만 1,925편의 AI 관련 논문이 등록되는 등 활발한 연구 활동이 이어졌다.13

3.1 대형 언어 모델과 로보틱스의 융합: 새로운 패러다임의 모색

  • “Large Language Models for Robotics: Opportunities, Challenges, and Perspectives” (arXiv:2401.04334): 이 서베이 논문은 LLM을 로봇 작업 계획에 통합하는 최근 연구 동향을 종합적으로 분석했다.15 LLM의 뛰어난 상식 추론 및 자연어 이해 능력은 로봇이 복잡한 지시를 이해하고 단계별 계획을 수립하는 데 새로운 가능성을 열어주었다. 그러나 논문은 LLM이 생성한 텍스트 기반의 계획을 로봇의 시각적 인식 및 물리적 세계와 일치시키는 ’접지 문제(Grounding Problem)’가 핵심 도전 과제임을 명확히 지적했다. 이 논문은 OK-Robot과 같은 구체적인 통합 연구들의 이론적 배경과 학문적 맥락을 제공하는 중요한 길잡이 역할을 한다.
  • “OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics” (arXiv:2401.12202): 이 연구는 앞선 서베이 논문이 제기한 도전 과제에 대한 구체적인 실증 사례를 제시한다. 연구팀은 사전 훈련된 VLM(OWL-ViT, SAM, CLIP 등)과 로봇의 기본 동작(navigation, grasping primitives)을 별도의 ‘훈련 없이(without any training)’ 시스템적으로 결합하여, 처음 보는 실제 가정 환경에서 “책상 위의 과자를 침실 협탁으로 옮겨라“와 같은 복잡한 지시를 58.5%의 높은 성공률로 수행해냈다.16 이 연구의 가장 중요한 통찰은 개별 AI 모델의 성능보다 각 모듈을 “어떻게 미묘하고 섬세하게(nuanced details) 결합하는가“가 전체 시스템의 성공에 결정적이라는 점을 실증적으로 보여준 것이다. 이는 거대 모델을 단순히 연결하는 것을 넘어, 정교한 시스템 통합(System Integration)의 중요성을 학문적으로나 공학적으로나 강력하게 시사한다.

3.2 로봇 자율성 및 지능의 진화: 다중 로봇과 제어 이론의 심화

LLM과 로보틱스의 결합이 산업계의 화두가 되는 가운데, 학계에서는 여전히 로봇 공학의 근본적인 문제들을 해결하기 위한 연구가 꾸준히 진행되고 있다. 이는 LLM이 제공하는 고수준의 ’지시’를 실제 로봇이 물리적으로 ’수행’하기 위해 반드시 필요한 기초 체력과 같다. AI의 ’뇌’에 해당하는 LLM 연구와 ’몸’에 해당하는 로보틱스 제어 연구는 상호 보완적으로 발전해야 하며, 1월의 학계 연구들은 이러한 균형 잡힌 발전을 잘 보여준다.

  • “The Landscape of Collective Awareness in multi-robot systems” (arXiv:2401.09321): 이 논문은 단일 로봇을 넘어, 다중 로봇 시스템이 협력 작업을 효과적으로 수행하기 위해 필요한 ’집단적 인식(Collective Awareness)’에 관한 연구 문헌을 체계적으로 분석했다.17 중앙 집중형, 분산형 등 다양한 시스템 아키텍처에서 로봇들이 어떻게 정보를 공유하고 공동의 상황 인식을 형성하는지에 대한 연구 지형도를 제시함으로써, 미래의 로봇 군집 지능 연구를 위한 이론적 토대를 마련했다.

  • 저널 ‘Robotics’ 1월호 주요 연구: 국제 학술지 ‘Robotics’ 2024년 1월호에 게재된 19편의 논문들은 로봇이 물리 세계와 상호작용하는 데 필요한 핵심 기술들을 다루었다.18

  • 유연한 조작(Compliant Manipulation): 로봇이 서랍을 열거나 레버를 돌리는 등 물리적으로 구속된 환경에서, 힘 제어를 통해 환경에 순응하며 유연하게 작업을 수행하는 정책 학습 연구가 발표되었다.

  • 변형 가능한 객체 제어(Control of Deformable Linear Objects): 케이블이나 로프처럼 형태가 자유롭게 변하는 물체를 두 개의 로봇 팔로 협력하여 원하는 형태로 만드는 최적화 기법 연구가 소개되었다.

  • 로봇 동역학 분석: 표준 바퀴를 사용하면서도 전방향 이동이 가능한 ’오프셋-미분 구동 로봇(Offset-Differential Robot)’의 동역학적 불안정성 문제를 심도 있게 분석하고, 이를 거친 지형에서 오히려 장점으로 활용하는 새로운 제어 전략을 제시했다.

4. 핵심 기반 기술 심층 탐구: 알고리즘의 수학적 원리

2024년 1월에 발표된 주요 연구들은 기존 AI 및 로보틱스 알고리즘을 정교하게 발전시키거나 창의적으로 결합한 결과물이다. 이들의 핵심적인 작동 방식을 이해하기 위해 기반이 되는 수학적 원리를 심층적으로 분석한다.

4.1 Diffusion Policy의 수학적 원리 및 응용 (ALOHA Unleashed 사례)

ALOHA Unleashed의 성공은 대규모 데이터와 함께 Diffusion Policy라는 표현력 높은 모델 아키텍처 덕분이었다. Diffusion Policy의 핵심 개념은 로봇의 정책, 즉 특정 관측(o_t)이 주어졌을 때 어떤 행동(a_t)을 할지를 결정하는 함수를 조건부 노이즈 제거 확산 프로세스(Conditional Denoising Diffusion Process)로 모델링하는 것이다.19 이는 행동을 한 번에 직접 예측하는 대신, 완전한 무작위 노이즈로부터 시작하여 여러 단계를 거쳐 점진적으로 ‘그럴듯한’ 행동으로 정제(denoising)해나가는 과정을 학습하는 방식이다.

수학적으로 이 정책은 행동 분포의 로그 확률 밀도 함수의 기울기, 즉 스코어 함수(\nabla_{a_t} \log p(a_t \vert o_t))를 학습한다. 추론 시에는 표준 정규 분포에서 샘플링한 무작위 행동 a_T \sim \mathcal{N}(0, I)에서 시작하여, 학습된 스코어 함수를 따라 확률이 높은 방향으로 행동을 반복적으로 업데이트한다. 이 과정은 Langevin Dynamics를 통해 다음과 같이 공식화할 수 있다.
a_{t-1} = a_t + \frac{\epsilon}{2} \nabla_{a_t} \log p(a_t \vert o_t) + \sqrt{\epsilon} z_t, \quad z_t \sim \mathcal{N}(0, I)
여기서 a_tt 시점의 행동, \epsilon은 스텝 크기, z_t는 새로운 노이즈다. ALOHA Unleashed에서는 추론 속도를 높이기 위해 결정론적 샘플링 방식인 DDIM(Denoising Diffusion Implicit Models)을 사용했으며, 여러 시간 스텝의 행동 시퀀스를 한 번에 예측하는 ‘Action Chunking’ 기법을 적용하여 더 부드럽고 일관된 움직임을 생성했다.21 이 방식은 장애물을 왼쪽 또는 오른쪽으로 피하는 것과 같이 여러 개의 동등하게 좋은 해결책이 있는 다봉형(multimodal) 행동 분포를 평균화하지 않고, 하나의 일관된 모드를 선택하여 실행할 수 있다는 큰 장점을 가진다.19

4.2 OK-Robot의 내비게이션 및 파지 전략 분석

OK-Robot의 성공은 강력한 사전 훈련 모델들을 효과적으로 결합한 시스템 통합 능력에 있다. 특히 내비게이션과 파지(grasping) 전략은 다중 목표 최적화와 시스템적 휴리스틱의 좋은 예를 보여준다.

  • Navigation Score Function: 로봇이 물체를 조작하기 위한 최적의 위치 \vec{x}^*를 찾기 위해, 세 가지 상충될 수 있는 목표를 하나의 점수 함수로 결합하여 최소화한다.22

  • s_1(\vec{x}) = ||\vec{x} - \vec{x}_{\text{o}}||: 물체 \vec{x}_{\text{o}}에 가까이 다가가려는 목표.

  • s_2(\vec{x}) = 40 - \min(||\vec{x} - \vec{x}_{\text{o}}||, 40): 로봇 팔의 작업 공간을 확보하기 위해 너무 가깝거나 멀지 않은 특정 거리를 유지하려는 목표.

  • s_3(\vec{x}): 가장 가까운 장애물 \vec{x}_{\text{obs}}와의 충돌을 피하려는 목표. 특정 거리(30) 이내로 가까워지면 페널티 1 / ||\vec{x} - \vec{x}_{\text{obs}}||를 부과한다.

이 세 함수를 가중 합산한 최종 점수 함수는 다음과 같다.코드 스니펫
s(\vec{x}) = s_1(\vec{x}) + 8s_2(\vec{x}) + 8s_3(\vec{x})
이 최적화 문제는 로봇이 물체에 충분히 가까우면서도, 조작 공간을 확보하고, 충돌을 피하는 다중 목표를 동시에 만족시키는 위치를 찾도록 유도한다.

  • 언어 조건부 파지 휴리스틱: 이 전략은 단일 수학 공식이 아닌, 두 개의 강력한 사전 훈련 모델을 파이프라인으로 결합한 시스템적 휴리스틱이다.16
  1. Grasp Proposal Generation: 먼저, RGB-D 이미지를 입력받아 물리적으로 안정적인 파지 자세 후보들을 다수 생성하는 AnyGrasp 모델을 사용한다.
  2. Language-Conditioned Filtering: 다음으로, Lang-SAM(Segment Anything Model + Language)이 “책상 위의 과자“와 같은 자연어 쿼리를 기반으로 이미지에서 해당 물체의 정확한 영역(마스크)을 분할해낸다.
  3. Final Selection: 마지막으로, 1단계에서 생성된 수많은 파지 후보들 중에서 2단계에서 생성된 물체 마스크 내부에 위치하는 것들만 최종 후보로 선택한다. 이 방식은 “무엇을 잡을지“에 대한 언어적 이해와 “어떻게 잡을지“에 대한 물리적 이해를 효과적으로 결합한 매우 실용적인 접근법이다.

4.3 SARA-RT의 아키텍처와 효율성: Self-Adaptive Robust Attention

SARA-RT는 거대 트랜스포머 모델을 실제 로봇에 탑재하기 위한 핵심적인 효율화 기술이다. 표준 트랜스포머의 어텐션 메커니즘은 입력 시퀀스의 길이 N에 대해 O(N^2)의 계산 복잡도를 가지므로, 고해상도 이미지나 긴 비디오 시퀀스를 처리해야 하는 로봇에게는 심각한 병목이 된다.2

SARA-RT는 이 문제를 선형 어텐션(Linear Attention)을 통해 해결한다. 수학적으로, 이는 기존의 softmax 커널 K(\mathbf{x}, \mathbf{y}) = \exp(\mathbf{x}^\top\mathbf{y})를, 내적으로 표현되는 K(\mathbf{x}, \mathbf{y}) \approx \mathbb{E}[\phi(\mathbf{x})^\top\phi(\mathbf{y})] 형태로 근사할 수 있는 특징 매핑 함수 \phi를 찾아 계산 복잡도를 O(N)으로 낮추는 원리에 기반한다.4

핵심적인 ‘Up-training’ 프로세스는 이미 훈련된 거대 모델(예: RT-2)의 어텐션 모듈을 이 효율적인 선형 어텐션 모듈로 교체한 뒤, 원래의 softmax 어텐션 결과를 가장 잘 모방하도록 특징 매핑 함수 \phi만 미세 조정하는 방식이다. 개념적으로 이는 다음과 같이 표현할 수 있다.
\text{Attention}(Q, K, V) \approx \text{LinearAttention}(\phi(Q), \phi(K), V)
이 접근법은 수십억 개의 파라미터를 가진 모델 전체를 재학습하는 막대한 비용 없이, 가장 계산량이 많은 부분만 효율적으로 ’업그레이드’하는 실용적인 방법을 제시한다. 이를 통해 거대 AI 모델의 현실 세계 적용 가능성을 크게 높였다.4

4.4 DemoStart의 자동 커리큘럼 강화학습

DemoStart는 희소 보상(sparse reward) 환경에서 강화학습의 탐험 비효율성 문제를 해결하기 위한 독창적인 방법론이다. 핵심 아이디어는 소수의 전문가 시연(demonstration) 데이터를 목표 정책을 직접 모방하는 데 사용하지 않고, 강화학습 에피소드의 ‘시작 상태(initial state)’ 분포를 정의하는 데 활용하는 것이다.6

자동 커리큘럼은 다음과 같이 생성된다.

  1. 시작 상태 샘플링: 학습 초기에는 전문가 시연 궤적의 끝부분, 즉 성공에 매우 가까운 상태에서 에피소드를 시작한다. 이는 에이전트가 쉽게 성공 경험을 하고 보상을 얻게 하여 학습을 촉진한다.
  2. 점진적 난이도 조절: 에이전트의 성능이 향상됨에 따라, 점차 시연 궤적의 앞부분, 즉 성공에서 더 먼 초기 상태에서 에피소드를 시작하도록 시작 상태 분포를 조절한다. 이를 통해 문제의 난이도를 점진적으로 높여나간다.

또한, DemoStart는 ’Zero-Variance Filtering (ZVF)’이라는 메커니즘을 통해 학습 효율을 극대화한다.25 특정 시작 상태에서 에피소드의 성공/실패 결과가 항상 동일하게 나온다면(분산=0), 그 상태는 너무 쉽거나 너무 어려워 학습에 도움이 되지 않는다. ZVF는 성공률이 0과 1 사이에서 변동하는, 즉 적절한 난이도를 가진 상태들만 선별하여 학습에 사용함으로써, 에이전트가 가장 유용한 경험에 집중하도록 한다. 이 방식은 전문가 시연의 ‘가이드’ 역할과 강화학습의 ‘탐험’ 역할을 효과적으로 결합하여, 불완전한 시연 데이터로부터도 최적의 정책을 효율적으로 학습할 수 있게 한다.

5. 2024년 AI 연구 동향 전망

2024년 1월의 주요 발표들은 올해 AI 및 로보틱스 연구의 방향성을 명확하게 제시한다.

  • Embodied AI의 주류화: 1월에 Google이 보여준 로보틱스 연구의 가속화는 시작에 불과하다. ICRA, IROS, CoRL 등 2024년에 개최될 주요 로보틱스 학회에서는 LLM/VLM을 로봇의 인식, 계획, 제어에 통합하는 연구가 폭발적으로 증가할 것으로 예상된다.26 OK-Robot과 같은 시스템 통합 연구는 더욱 정교해지고, ALOHA와 같은 손재주 연구는 더 다양하고 복잡한 실제 작업으로 확장될 것이다.
  • AI 에이전트와 멀티모달리티의 심화: Google의 Project Astra 프로토타입이나 Meta의 비즈니스 에이전트 구상 등은 2024년이 본격적인 ’AI 에이전트’의 원년이 될 것임을 시사한다.27 텍스트, 이미지, 비디오, 음성을 동시에 이해하고 상호작용하는 멀티모달 모델(예: Google Gemini)이 로봇의 ’몸’과 결합하여, 사용자의 복잡한 요구를 이해하고 물리적 세계에서 자율적으로 작업을 수행하는 더욱 유능한 에이전트를 탄생시킬 것이다.
  • 개방형 vs. 폐쇄형 모델 경쟁의 격화: Meta의 Code Llama 70B와 같은 고성능 개방형 모델의 등장은 AI 생태계의 주도권을 둘러싼 경쟁을 더욱 심화시킬 것이다. 개발자들은 더 많은 선택권을 갖게 되며, 특정 작업에 최적화된 다양한 오픈소스 모델들을 활용하여 혁신적인 애플리케이션을 개발할 것이다. 이는 전반적인 AI 기술의 상향 평준화와 비용 절감을 이끌어낼 것으로 전망된다.29
  • AI 안전성과 사회적 영향에 대한 논의 확산: 국제통화기금(IMF)이 AI가 전 세계 일자리의 최대 40%에 영향을 미칠 수 있다고 경고하고, OpenAI가 군사적 사용에 대한 정책을 변경했으며, 영국 국립사이버안보센터(NCSC)가 AI를 이용한 사이버 공격의 증가를 예측하는 등 AI 기술의 사회적 책임과 규제에 대한 논의는 더욱 가열될 것이다.10 기술 발전과 함께 AI의 잠재적 위험을 관리하고 공정한 이익 분배를 보장하기 위한 사회적, 정책적 논의가 기술 연구만큼이나 중요해질 것이다.

6. 결론: 종합 및 향후 과제

2024년 1월은 AI가 디지털 세계의 언어적 지능을 넘어 물리적 세계의 ’행동 지능(Embodied Intelligence)’으로 나아가는 중요한 변곡점이었음을 명확히 보여주었다. 동시에, 범용 모델의 한계를 넘어 특정 전문 분야에서 인간 전문가 수준의 능력을 갖추기 시작한 ’전문화’의 시대가 본격적으로 개막했음을 알렸다. Google DeepMind의 로보틱스 스택과 Meta AI의 Code Llama 70B는 이러한 두 가지 거대한 흐름을 상징하는 대표적인 성과였다.

이러한 눈부신 진보에도 불구하고, 진정으로 신뢰할 수 있고 유용한 AI 및 로봇 시스템을 구현하기 위해서는 다음과 같은 핵심적인 연구 과제들이 남아있다.

  • 데이터 효율성 및 Sim-to-Real: AutoRT와 DemoStart가 일부 해결책을 제시했지만, 여전히 실제 로봇을 학습시키는 데는 막대한 데이터와 시간이 요구된다. 더 적은 데이터로, 시뮬레이션 환경에서 학습한 지식을 현실 세계로 효과적으로 이전하는(Sim-to-Real) 근본적인 기술 혁신이 필요하다.
  • 안전성과 신뢰성: 로봇이 예측 불가능하고 동적인 실제 환경에서 인간과 함께 작동하기 시작하면서, 예기치 않은 상황에 안전하게 대처하고 실패 시 그 원인을 설명할 수 있는 능력(Explainable AI)이 무엇보다 중요해진다. 이는 단순한 성능 향상을 넘어, 시스템의 신뢰성을 확보하는 문제다.
  • 시스템 통합의 과학: OK-Robot이 보여주었듯이, 각각 뛰어난 성능을 가진 여러 AI 모듈을 결합하여 안정적으로 작동하는 복잡한 시스템을 구축하는 것은 그 자체로 하나의 과학이자 공학적 도전이다. 모듈 간의 상호작용을 체계적으로 이해하고, 전체 시스템의 성능을 최적화하며, 예상치 못한 오류를 디버깅하는 방법론에 대한 깊이 있는 연구가 요구된다.
  • 인간-로봇 상호작용(HRI): 기술이 발전함에 따라, 로봇이 인간의 복잡하고 미묘한 의도를 더 잘 이해하고, 인간과 자연스럽게 협력하며, 사회적 규범과 맥락을 준수하는 능력이 더욱 중요해질 것이다. 이는 기술적 문제를 넘어 심리학, 사회학, 윤리학 등 다학제적 접근을 요구하는 깊이 있는 과제다.

7. 참고 자료

  1. Our latest advances in robot dexterity - Google DeepMind, https://deepmind.google/discover/blog/advances-in-robot-dexterity/
  2. Shaping the future of advanced robotics - Google DeepMind, https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/
  3. Introducing Code Llama, a state-of-the-art large language model for coding - Meta AI, https://ai.meta.com/blog/code-llama-large-language-model-coding/
  4. [2312.01990] SARA-RT: Scaling up Robotics Transformers with Self …, https://ar5iv.labs.arxiv.org/html/2312.01990
  5. ALOHA Unleashed: A Simple Recipe for Robot Dexterity, https://aloha-unleashed.github.io/
  6. DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots - arXiv, https://arxiv.org/html/2409.06613
  7. CodeLlama 70B | Open Laboratory, https://openlaboratory.ai/models/CodeLlama-70B
  8. Meta Releases Code Generation Model Code Llama 70B, Nearing GPT-3.5 Performance, https://www.infoq.com/news/2024/01/code-llama-70b-released/
  9. Code Llama: Open Foundation Models for Code - arXiv, https://arxiv.org/html/2308.12950v3
  10. January news roundup: What’s new in the world of AI? - Pluralsight, https://www.pluralsight.com/resources/blog/ai-and-data/ai-this-month-january-2024
  11. Your AI Update - January 2024 | News - Technology & Digital Studies Program, https://altech.nd.edu/events-news/news/your-ai-update-january-2024/
  12. AI News January 2024: In-Depth and Concise - The AI Track, https://theaitrack.com/ai-news-january-2024/
  13. Artificial Intelligence Jan 2024 - arXiv, https://arxiv.org/list/cs.AI/2024-01
  14. Artificial Intelligence Jan 2024 - arXiv, http://arxiv.org/list/cs.AI/2024-01?skip=875&show=2000
  15. Large Language Models for Robotics: Opportunities … - arXiv, https://arxiv.org/abs/2401.04334
  16. OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics - arXiv, https://arxiv.org/abs/2401.12202
  17. arXiv:2401.09321v1 [cs.RO] 17 Jan 2024, https://arxiv.org/pdf/2401.09321
  18. Robotics, Volume 13, Issue 1 (January 2024) – 19 articles - MDPI, https://www.mdpi.com/2218-6581/13/1
  19. Diffusion Policy, https://diffusion-policy.cs.columbia.edu/
  20. Diffusion Policy: How Diffusion Models Are Transforming Robot Learning from Demonstration | by Isaac Kargar, https://kargarisaac.medium.com/diffusion-policy-how-diffusion-models-are-transforming-robot-learning-from-demonstration-32c27ba829cf
  21. ALOHA Unleashed: A Simple Recipe for Robot Dexterity - arXiv, https://arxiv.org/html/2410.13126v1
  22. OK-Robot: What Really Matters in Integrating Open … - arXiv, https://arxiv.org/pdf/2401.12202
  23. SARA-RT: Scalable Robotics Transformers - Emergent Mind, https://www.emergentmind.com/papers/2312.01990
  24. DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots - ResearchGate, https://www.researchgate.net/publication/383917822_DemoStart_Demonstration-led_auto-curriculum_applied_to_sim-to-real_with_multi-fingered_robots
  25. [Literature Review] DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots - Moonlight, https://www.themoonlight.io/en/review/demostart-demonstration-led-auto-curriculum-applied-to-sim-to-real-with-multi-fingered-robots
  26. AI Conference Deadlines, https://aideadlin.es/
  27. 2024: A year of extraordinary progress and advancement in AI - Google Blog, https://blog.google/technology/ai/2024-ai-extraordinary-progress-advancement/
  28. The future of AI: Built with Llama - Meta AI, https://ai.meta.com/blog/future-of-ai-built-with-llama/
  29. Open Source AI is the Path Forward - About Meta, https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
  30. [2401.02843] Thousands of AI Authors on the Future of AI - arXiv, https://arxiv.org/abs/2401.02843